单据票证信息抽取

功能简介

  • 单据票证信息抽取(固定版式)是基于深度学习的信息抽取自学习模型任务,可对版式相对固定的单据、证件、凭证等类型数据有较好的效果,支持用户自定义抽取字段,通过平台可视化引导,完成数据标注和模型训练。

  • 在图像质量较好情况下,通过100+训练样本标注,调优后模型识别准确率可超95%+。

  • 同时工具箱中还提供分类器管理工具与字段类型管理工具,支持用户通过同一接口完成不同版式数据的自动分类路由与高精度识别。

功能优势

  • 高精度,基于阿里云强大的预训练模型,经过调优训练的多版式模型识别准确率可达95%以上。

  • 少样本,仅需标注少量数据即可完成模型优化迭代,且模型具有泛化性。

  • 低门槛,无需代码开发,开箱即用,可自主配置规则,交互友好可控。

  • 高效率,提供智能预标注能力,多人协同标注耗时短。

应用场景

  • 适用于版式相对固定或可枚举(不超过50种),需要结构化抽取Key-Value信息的图片或单页PDF文件。

  • 模型有持续优化的需求,且有较多的数据样本可用于模型训练进行效果优化的单据票证类数据。如营业执照、医疗发票等财税报销,资质审核,业务内部单据结构化识别等场景。

相关链接

操作指南

「单据票证信息抽取接入视频」参考:

创建「单据票证信息抽取」流程如下图,需要超过20张图片进行训练才可完成模型创建。

image

步骤一: 数据准备

在「数据中心-数据集」中,用户可进行上传和管理模型任务所需数据。点击添加数据集进入上传界面,编辑数据集名称并上传相关固定版式业务数据。

说明

单据票证信息抽取自定义模型至少需要20张训练数据,才能获得相对较好的识别抽取效果。

提示建议:

  1. 数据准备有什么具体要求?

    1. 数据集可上传图片、文档、压缩包;

      1. 文档,支持不超过20M且后缀为pdf的文件,仅支持单页pdf;

      2. 图片,支持不超过10M且后缀为jpg、jpeg、png的文件;

      3. 压缩包,仅支持zip格式,且单zip包不超过20M。

    2. 单张图片最长边不超过8192像素,最短边不小于15像素。当长边超过1024像素时,长宽比不超过50 :1。

    3. 至少准备20-30份以上同类任务的数据用于模型训练与评测。

  2. 如何获得更好识别效果?

    1. 在产品功能范围的任务,数据质量越高,识别与抽取效果越好,字迹清晰端正的数据能有更高的准确率。

    2. 单字大小保持在10-50像素内,以获得较好的识别效果。

    3. 数据来源于真实业务场景,且类型与版式完整覆盖。

步骤二:数据标注

数据标注划分为标注创建环节、标注环节、质检环节三大步骤;

标注任务创建

image

在「数据中心-标注任务」界面中,点击「创建标注任务」进入创建界面,编辑「任务名称」以及在「上传数据」中选择需要标注的数据集或直接本地上传,完成后进入题目设置

image

版面分析若图片中的单据票证存在旋转、变形情况,亦或票证区域只占图片70%以下,则需要勾选该选项,并在后续标注环节中框选单据票证的外框。

预标注开启OCR预标注识别后,在标注时画框之后会自动识别出框内文字内容,提高标注效率。

题目库:本任务中,已存在的题目,用户可通过查看题目库选择合适的题目用于标注任务的制定。

字段名称:识别字段对外透出的名称,即API接口中对应的名称,且字段名需全局唯一。

字段类型:字段属性定义,选择合适的字段类型可提升字段识别端到端效果,支持选择通用字段或用户自行添加自定义字段。无需后处理选择常规字段类型即可。

提示建议:

  1. 标注任务如何上传数据:

    1. 支持本地上传和从数据集中选择;若您预先将数据上传至数据集,则可选择从数据集中选择,点击列表上方「添加数据集」,选择需要标注的数据集即可。

  2. 如何填写KV信息抽取:

    1. 需要将需要标注的字段名称全部填入内容框中。选择相应的字段类型,可提高字段识别精准度。

    2. 可选择已创建完成的「题目库」引用其字段。对于同一模型建议选择同一「题目库」,可确保其字段设置完全相同。

标注

在「数据中心-标注任务」中,选择已创建的标注任务,点击去标注进入数据标注界面。在标注工具中,可通过框选按钮进行待识别字段的框选标注,选择对应的题目,并仔细检查核对自动识别的文字内容。待所有图片及其所有待识别字段都依次完成标注后,点击提交任务完成该部分标注。

重要

标注数据的质量(文字及位置)将直接影响模型训练的效果与评测指标。

image

如遇见错误数据或不可标注数据,可选择跳过该张图片。

提示建议:

  1. 框选工具何使用?

    1. 对于文字较为平整的区域您可选择「四角框」进行框选,对于文字倾斜的区域您可选择「多边形标注」进行框选,选框尽可能贴合待识别字段,可提高识别效果。

    2. 「多边形标注」工具暂不支持预识别,您需要将识别结果手动输入识别框内。

    3. 「OCR预标注」支持印刷体文字识别,暂不支持手写体识别。预标注自动识别的文字内容需仔细核对检查,保证标注正确性。

  2. 卡证类型如何选择?

    1. 目标区域:单据票证所在区域,对应单据票证的外边框,用于定位。

    2. KV区域:单据票证中所需识别的Key-Value字段。

    3. 对于单证票据占图片比例低于70%的图片,推荐选择目标区域以锁定识别区域。

  3. 如何框选才能达到比较好的效果?

    1. 标注框尽量贴合识别字段,若文字倾斜或不规则也可通过「多边形标注」工具使其边框紧密贴合待识别文字。尤其是对于密集文字、有纹理干扰的情况,标注框贴合的需要更细致的标注,以便最终模型训练完成后获得更好的效果。

    2. 若同一个字段存在多行内容,则需要逐行标注拉框进行标注,每一行赋予相同的字段名。

质检

进入「数据中心-标注任务」界面,选择已标注完成的任务进行质检。质检员可进行标注修改与驳回,完整当前所有标注任务后进行任务提交。注意核对所有字段是否均已完成标注。

image

提示建议:

  1. 如何进行质检?

    1. 质检人员可直接使用标注工具对标注信息进行增删改操作。

    2. 质检人员选择「提交」则所有图片都完成质检工作。

  2. 质检过程中发现标注质量不高该怎么办?

    1. 选择对应的题目进行直接修改编辑。

    2. 选择驳回则退回标注人员重新标注处理。

步骤三:模型训练与测评

进入「模型中心」,点击创建模型进入模型创建界面,进行训练集标注结果和测试集标注结果选择,同时完成基本信息填写。创建模型后成功后自动进入模型训练

image

「训练集」:用于训练模型的数据源,只能选择标注且质检完成的数据集作为训练集,且已被选为测试集的数据集不可再次选择。建议选择20张以上有效数据进行模型训练。

「测试集」:用于测试模型的数据源,只能选择标注且质检完成的数据集作为测试集,且已被选为训练集的数据集不可再次选择。

「自动划分1/10训练集作为测试集」:若打开此按钮,则无需手动再次选择测试集,系统直接自动划分1/10训练集作为测试集。如打开自动划分功能前已存在完成上传测试集,打开开关后,系统将忽略此前手动上传的测试集数据。

image.png

image.png

模型训练费用及预估时长。根据任务类型及数量变动,以界面显示数字为准。详情可见OCR文档自学习计费

「训练时长」:由数据量、标注情况、机器资源等多种因素共同决定。例如采用V100机器,20张图片数据量约需1.5小时训练时长,200张图片数据量约需3小时训练时长。

提示建议:

  1. 您需要校验「测试集」和「训练集」字段,各数据集字段内容需要保持一致。

  2. 「模型训练」配置环节支持选择字段对应的字段类型,或根据业务需求删除字段,以提高训练精准度。

  3. 数据量越大,标注越精确,模型训练和评测的效果越好。

  4. 配置合适的字段类型,提升端到端准确率。

image

算法评估评价指标:提供包括算法模型准确率及单字段准确率与检测F1值

  • 整体准确率:算法模型准确率(Accuracy),未经规则后处理修正。即测试集中被正确识别的字段占所有字段的比例(包括内容+位置)。image

  • 单字段 - 检测F1值:综合评价指标(F1-Measure),未经规则后处理修正,为字段检测框精确率和召回率的加权调和平均,常用于评价检测模型的好坏。image

  • 单字段 - 准确率:算法模型字段识别准确率(Accuracy),未经规则后处理修正。即测试集中该字段中被正确识别的数目占总(标注框和预测框的并集,包括内容+位置)的比例。image

调优建议:

如何进行模型调优?

  1. 明确任务类型符合功能范围,以及数据质量尽可能清晰端正。

  2. 数据标注需要将识别字段逐一标注完整,标注框尽量贴合字段文字。也可以调整字段类型或高级选项提高精准度。

  3. 数据量越大,模型训练效果越好。一般模型数据量达100+份,会有一个较好的表现。

  4. 数据类型和版式分布符合真实业务场景,只有训练过的数据类型和版式才能有较好的识别效果。

如何复制标注任务:

  1. 若您需要在原先标注任务下重新调优,您可以在标注任务操作栏直接点击「复制」,即会生成一条带有原标注内容的标注任务,可以在原标注基础上做调优。

步骤四: 模型部署

模型训练完成后,进入「模型中心-模型详情」,点击页面底部「去部署」按钮,即可开始模型部署。模型部署需要一定时间,部署成功后即可通过在线体验可视化测试模型效果或直接使用API进行在线服务调用。

image.png

说明

发布并部署模型服务后,可参考文档API概览使用服务,也可进入「在线使用」界面测试模型效果。

重要

OCR文档自学习自2023年8月23日开启全面商业化,模型训练按时长计费,模型推理调用按调用量计费,详情可见OCR文档自学习计费

小工具-题目库

题目库定义:应用于「题目设置」环节,预先创建标注任务字段,此题目支持多次引用;即多标注任务若所需标注字段相同,可通过题目库选择,减少多次编辑题目人力成本并降低题目编辑错误可能性。

说明

若重新修改题目库,不会对已经发起的标注任务或模型产生影响。